ServerlessLLM: Low-Latency Serverless Inference for Large Language Models
Yao Fu1 Leyang Xue1 Yeqi Huang1 Andrei-Octavian Brabete1 Dmitrii Ustiugov2 Yuvraj Patel1 Luo Mai1
1University of Edinburgh 2NTU Singapore
爱丁堡Luo Mai老师组的工作,NTU 新AP Dmitrii也有挂名
原作者的知乎帖子
OSDI 2024,看完还没总结
一句话总结概括
加速LLM服务的冷启动
背景
先前工作存在的问题
难点
解决方案
创新点
- fast multi-tier checkpoint loading
- 一种新的checkpoint format
- a multi-tier loading system
- efficient live migration of LLM inference
- startup-time-optimized model scheduling